[2024年10月2日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Airbyte
Airbyte 1.0がリリース
Airbyte初のメジャーバージョンである1.0がリリースされました。
目ぼしい新機能としては、以下が挙げられると思います。
- Connector BuilderのAI Assistant(Open Betaとして提供)
- APIのドキュメントURLを入れるだけで、自動でコネクタを生成する機能
- Connector Marketplace
- コミュニティが作成したコネクタを利用するだけでなく、自身も作成したコネクタを提供できる機能
- Self-Managed Enterpriseの一般提供開始
- ユーザー自身の環境にホストできるAirbyte(Airbyte社のサポートがある)
これらの新機能の詳細は下記のブログも併せてご覧ください。
Data Warehouse/Data Lakehouse
Snowflake
Fine-tuningされたLLMをデータシェアリングの仕組みで別のSnowflakeアカウントに共有できるように ※プレビュー
Fine-tuningされたLLMのモデルをデータシェアリングの仕組みで別のSnowflakeアカウントに共有できる新機能が発表されました。
Fine-tuningを行ったLLMのモデルに対するUSAGE権限を付与するだけで、これまでのSnowflakeのシェアリングの仕組みを使って共有できるようです。
Feature Storeが一般提供
Feature Storeが一般提供となりました。
Feature Storeに関しては下記のQuickstartも公開されています。私も初耳だったのですが、dbt経由でFeature Storeを利用することもできるみたいです!
Snowpark-optimized Warehouseで使用するメモリやCPUをユーザー側で指定できるように ※プレビュー
Snowpark-optimized Warehouseの新機能として、使用するメモリやCPUをユーザー側で指定できるようになりました。
下記は公式ドキュメントからの引用ですが、このようなクエリでメモリやCPUを指定できるようになっています。
CREATE WAREHOUSE so_warehouse WITH
WAREHOUSE_SIZE = 'LARGE'
WAREHOUSE_TYPE = 'SNOWPARK-OPTIMIZED'
RESOURCE_CONSTRAINT = 'MEMORY_16X_X86';
BigQuery
operational health dashboardが一般提供
スロットの使用状況、シャッフルの使用状況などを確認できるoperational health dashboardが一般提供となりました。
下図は上記のドキュメントからの引用ですが、このような形式で確認することができます。
MotherDuck/DuckDB
DuckDB 1.1に関する解説記事
DuckDB 1.1は2024年9月9日にリリースされましたが、そのアップデート内容に関して解説する記事が出ていました。
Secretが必要なAPIにDuckDBからアクセスできる機能、EXPLAINコマンドの結果を図示してHTMLとして出力、といった機能が個人的に気になりました。
Data Transform
dbt
dbt Explorer上でモデルのクエリ実行数がわかる機能がリリース ※プレビュー
dbt Cloud Enterpriseエディション限定の機能となりますが、dbt Explorer上でモデルのクエリ実行数がわかる機能がリリースされました。
dbt 1.9でリリース予定の機能が徐々に判明中
まだ未確定情報もありますが、dbt 1.9でリリース予定の機能が徐々にわかってきております。
- constraintsで
foreign_key
を入れることができるように - incremental modelで新しいincremental_strategyである
microbatch
が実装予定(参考:GitHubのDiscussion)
SDF
Impact Analysis機能を発表
SDFが新機能として、Impact Analysisという機能を発表しました。
プルリクエスト発行時に影響のある下流のモデルとそのカラムの一覧をリストアップしてくれる機能です。
Semantic Layer
Cube
Cube CoreでPlayground 2.0とChart Prototypingを利用できるように
CubeのOSS版であるCube Coreで、Playground 2.0とChart Prototypingを利用できるようになると発表されました。v0.36から利用できるようです。
Playground 2.0はクエリした結果に対して簡易的なグラフを書いて検証できる機能で、Chart PrototypingはPlayground 2.0で可視化したグラフをEnbedするためのコードを生成できる機能です。
Notebooks
Hex
大規模なパフォーマンス改善を実施
Hexがアーキテクチャを刷新して大規模なパフォーマンス改善を実施したというリリースが出ていました。
- 不要なpandas DataFrameの作成をスキップすることで、実行速度が最大5~10倍に
- 100個以上のセルを読み込む場合のレンダリングが最大90%高速化
下記のリリースノートではどのようなアーキテクチャ変更を行ったかの説明もあります。気になる方はこちらも併せてご覧ください。
Business Intelligence
Looker
Looker内でのGemini in Looker機能がリリース ※プレビュー
現在はGoogle Cloud Core版のLookerだけですが、Looker内でのGemini in Lookerの機能がリリースされました。
- Create custom Looker visualizations
- 自然言語を用いて、カスタム書式設定を生成できる機能
- Generate LookML
- 自然言語プロンプトに応じて、LookMLコードの提案を生成してくれる機能
ThoughtSpot
CEOがKetan Karkhanis氏に
ThoughtSpot社の新しいCEOとして、Ketan Karkhanis氏が就任されるというブログが投稿されていました。
このブログによると、Ketan氏は元々SalesforceでSales CloudのGM兼EVPを務めており、Salesforce Einstein Analyticsを立ち上げから3億ドル以上の売上に成長させた実績があるとのことです。
Codatum
KARTEなどを提供するプレイド社のグループ会社より「Codatum」がリリース
KARTEなどを提供するプレイド社のグループ会社より「Codatum」というサービスがリリースされました。
Notebook機能も持っており、既存のサービスでいうとHexと近い印象を受けました。
Data Catalog
Select Star
2024年9月のリリース内容まとめ
Select Starより、2024年9月のリリース内容がまとめて投稿されていました。
個人的には、上流のテーブルに品質問題があったときに「Data Quality」タブで確認できる機能、Salesforceとの統合(Beta)、が気になりました。
Data Quality・Data Observability
Monte Carlo
Monte Carloが6四半期連続でG2の「Data Observability Platform」分野で1位を受賞
Monte Carloが6四半期連続でG2の「Data Observability Platform」分野で1位を受賞したと、Monte Carlo社の公式ブログから記事が出ていました。
Data Orchestration
Airflow
Astronomer社のCosmosが1.6.0をリリース
Astronomer社のCosmosが1.6.0をリリースしました。
Kestra
Kestraの最新バージョン0.19.0がリリース
Kestraの最新バージョンとして0.19.0がリリースされました。
個人的には、UIの日本語表記に対応したこと、キーバリュー形式で保持した値で動的にワークフローの設定を切り替える機能、が気になりました。